عنوان انگلیسی : Parallel Processing of large graphs
More and more large data collections are gathered worldwide in various IT systems. Many of them possess a networked nature and need to be processed and analysed as graph structures. Due to their size they very often require the usage of a parallel paradigm for efficient computation. Three parallel techniques have been compared in the paper: MapReduce, its map-side join extension and Bulk Synchronous Parallel (BSP). They are implemented for two different graph problems: calculation of single source shortest paths (SSSP) and collective classification of graph nodes by means of relational influence propagation (RIP). The methods and algorithms are applied to several network datasets differing in size and structural profile, originating from three domains: telecommunication, multimedia and microblog. The results revealed that iterative graph processing with the BSP implementation always and significantly, even up to 10 times outperforms MapReduce, especially for algorithms with many iterations and sparse communication. The extension of MapReduce based on map-side join is usually characterized by better efficiency compared to its origin, although not as much as BSP. Nevertheless, MapReduce still remains a good alternative for enormous networks, whose data structures do not fit in local memories
چکیده
امروزه مجموعه دادههای بزرگ و بزرگتری در سیستمهای IT مختلف سرتاسرجهان جمع آوری میشود. بسیاری از آنها، یک ذات شبکه بندی شدی را پردازش کرده و نیاز به پردازش و تحلیل به عنوان ساختارهای گراف دارند. به دلیل اندازه آنها، اغلب استفاده از طرجی موازی برای محاسبه کارآمد مورد نیاز است. سه تکنیک موازی سازی در این مقاله مقایسه شدهاند:MapReduce، گسترش آن در اتصال سمت نگاشت و موازی سازی همگام انبوه (BSP). این تکنیکها برای دومسئله گراف مختلف پیاده سازی شدهاند: محاسبه کوتاهترین مسیرها از یک مبدا (SSSP) و دسته بندی انبوه گرههای گراف با استفاده از انتشار تاثیر نسبی (RIP). روشها و الگوریتمها به دادههای شبکه متعددی با اندازه و پروفایل ساختاری مختلف اعمال شدهاند که از سه دامنه نشأت میگیرند: ارتباط راه دور، رسانه و میکرووبلاگ. نتایج نشان دادهاند که پردازش تکرارشونده گراف با پیاده سازی BSP همیشه و به طور قابل توجهی حتی تا 10 برابر و به خصوص برای الگوریتمهایی با تکرار زیاد و ارتباطات تنک، بهتر ازMapReduce است. گسترش MapReduce برپایه اتصال سمت نگاشت معمولا کارآیی بهتری در مقایسه با الگوریتم اصلی دارد، اگرچه بهاندازه BSP نمیباشد. با این حال، MapReduce همچنان برای شبکههای حجیم که ساختارداده آنها در حافظه محلی جای نمیگیرد، جایگزینی مناسب است.
1-مقدمه
بسیاری از مسائل علمیو تکنیکی به داده ای با ذات شبکه مرتبط اند که میتواند نسبتا به سادگی با استفاده از گراف نمایش داده شود. گرافها، انتزاعی انعطاف پذیر برای توصیف روابط بین اشیاء گسسته فراهم میکنند. بسیاری از مسائل عملی را میتوان در محاسبات علمی، تحلیل داده و دیگر شاخهها به شکل مورد نیاز با گراف مدلسازی کرده و توسط الگوریتمهای گراف مناسب حل کرد.
در بسیاری از محیطها، ساختارهای گراف آنقدر بزرگ اند که نیاز به روشهای پردازش خاصی، به خصوص به طور موازی دارند. این مسئله به خصوص برای مجموعه دادههای کاربران که ردپای خود را در سرویسهای روی خط و ارتباطی مختلفی جای میگذارند، از جمله پورتالهای انتشار رسانه یا سایتهای شبکههای اجتماعی، یوتوب و فیسبوک، حیاتی است. به علاوه این پایگاههای داده، رفتار مختلف کاربر را نشان میدهند که نمایش گراف آنها ممکن پیچیده و همراه با چندین خط ارتباطی بین گرههای شبکه باشد. این مسئله نیاز به روشهای تحلیلی دارد که نه تنها با گرافهای ساده بلکه با گرافهای چندگانه و فراگرافها دست وپنجه نرم کنند...
تعداد صفحات ترجمه فارسی : 40 صفحه